现代机器学习系统越来越多地以广泛的个人数据收集为特征,尽管回报降低并增加了这种做法的社会成本。然而,数据最小化是欧盟一般数据保护法规('GDPR')中列出的核心数据保护原则之一,并要求仅处理足够,相关且仅限于必要物品的个人数据。但是,由于缺乏技术解释,该原则的采用有限。在这项工作中,我们以机器学习和法律的文献为基础提出FIDO,这是抑制数据过度收集的框架。 Fido学会了基于与系统性能相关的数据最小化的解释来限制数据收集。具体而言,Fido通过迭代更新性能曲线的估计值或数据集大小和性能之间的关系,从而提供了数据收集,以停止标准。 FIDO通过分段功率定律技术估算性能曲线,该技术在整个数据收集过程中分别对算法性能的不同阶段进行建模。经验实验表明,该框架会产生准确的性能曲线和数据收集,从而在数据集中停止标准并功能采集算法。我们进一步证明,许多其他曲线家庭系统地高估了其他数据的回报。在设计数据最小化框架时,我们的调查结果和分析提供了对相关考虑因素的更深入的见解,包括主动功能获取对单个用户的影响以及用户特定数据最小化的可行性。我们以实施数据最小化的实用建议得出结论。
translated by 谷歌翻译
本文确定了数据驱动系统中的数据最小化和目的限制的两个核心数据保护原理。虽然当代数据处理实践似乎与这些原则的赔率达到差异,但我们证明系统可以在技术上使用的数据远远少于目前的数据。此观察是我们详细的技术法律分析的起点,揭示了妨碍了妨碍了实现的障碍,并举例说明了在实践中应用数据保护法的意外权衡。我们的分析旨在向辩论提供关于数据保护对欧盟人工智能发展的影响,为数据控制员,监管机构和研究人员提供实际行动点。
translated by 谷歌翻译
Camera images are ubiquitous in machine learning research. They also play a central role in the delivery of important services spanning medicine and environmental surveying. However, the application of machine learning models in these domains has been limited because of robustness concerns. A primary failure mode are performance drops due to differences between the training and deployment data. While there are methods to prospectively validate the robustness of machine learning models to such dataset drifts, existing approaches do not account for explicit models of the primary object of interest: the data. This makes it difficult to create physically faithful drift test cases or to provide specifications of data models that should be avoided when deploying a machine learning model. In this study, we demonstrate how these shortcomings can be overcome by pairing machine learning robustness validation with physical optics. We examine the role raw sensor data and differentiable data models can play in controlling performance risks related to image dataset drift. The findings are distilled into three applications. First, drift synthesis enables the controlled generation of physically faithful drift test cases. The experiments presented here show that the average decrease in model performance is ten to four times less severe than under post-hoc augmentation testing. Second, the gradient connection between task and data models allows for drift forensics that can be used to specify performance-sensitive data models which should be avoided during deployment of a machine learning model. Third, drift adjustment opens up the possibility for processing adjustments in the face of drift. This can lead to speed up and stabilization of classifier training at a margin of up to 20% in validation accuracy. A guide to access the open code and datasets is available at https://github.com/aiaudit-org/raw2logit.
translated by 谷歌翻译
人类评分是分割质量的抽象表示。为了近似于稀缺专家数据的人类质量评级,我们训练替代质量估计模型。我们根据Brats注释方案评估复杂的多级分割问题,特别是神经胶质瘤分割。培训数据以15位专家神经放射科学家的质量评级为特征,范围从1到6星,用于各种计算机生成和手动3D注释。即使网络在2D图像上运行并使用稀缺的训练数据,我们也可以在与人类内部内可靠性相当的错误范围内近似分段质量。细分质量预测具有广泛的应用。虽然对分割质量的理解对于成功分割质量算法的成功临床翻译至关重要,但它可以在培训新的分割模型中发挥至关重要的作用。由于推断时间分裂,可以直接在损失函数中或在联合学习设置中作为完全自动的数据集策划机制。
translated by 谷歌翻译
本文解决了视频检测问题的视频监视问题。由于异常事件的固有稀有性和异质性,该问题被视为一种正态建模策略,在这种策略中,我们的模型学习以对象为中心的正常模式,而无需在训练过程中看到异常样本。主要贡献在于耦合预处理的对象级动作具有基于余弦的异常估计功能的原型原型,因此通过向基于主流重建的策略引入其他约束来扩展以前的方法。我们的框架利用外观和运动信息来学习对象级别的行为并捕获内存模块中的原型模式。在几个知名数据集上进行的实验证明了我们方法的有效性,因为它在最相关的时空评估指标上优于当前的最新时间。
translated by 谷歌翻译
机器学习,已经在越来越多的系统和应用程序的核心,被设置为更普遍存在的可穿戴设备和物联网的快速崛起。在大多数机器学习应用中,主要焦点是实现的结果的质量(例如,预测准确性),因此正在收集大量数据,需要大量的计算资源来构建模型。但是,在许多情况下,建立大型集中式数据存储库是不可行或不切实际的。例如,在个人健康中,隐私问题可能会抑制详细个人数据的共享。在这种情况下,理想情况下,机器学习应该在可穿戴设备本身上执行,这提高了诸如Smartwatches的电池容量的主要计算限制。因此,本文调查了节俭学习,旨在使用最少量资源来构建最准确的可能模型。通过节俭镜头检查广泛的学习算法,在各种数据集上分析了它们的准确性/运行时性能。此后,最有前途的算法通过在SmartWatch中实现它们,并让他们在手表本身上学习活动识别模型来评估现实世界的情况。
translated by 谷歌翻译
本文提出了一种新的因果发现方法,即结构不可知的建模(SAM)。SAM利用条件独立性和分布不对称性,旨在从观察数据中找到潜在的因果结构。该方法基于不同玩家之间的游戏,该游戏将每个变量分布有条件地作为神经网估算,而对手则旨在区分生成的数据与原始数据。结合分布估计,稀疏性和无环限制的学习标准用于通过随机梯度下降来实施图形结构和参数的优化。SAM在合成和真实数据上进行了实验验证。
translated by 谷歌翻译